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基于 条 件 随机 场 与 信息 灶 的 特定 领域 概念 发 现 ， 
付 瑶 !， 万 静 "， 邢 立 栋 ? 


(1. 北京 化 工大 学 信息 科学 与 技术 学 院 , 北京 100029; 2. 中 国 科 学 院 自 动 化 研究 所 ,北京 100190) 


摘 要 : 针对 特定 领域 内 自动 化 识别 既 有 概念 和 发 现 新 概念 的 问题 ， 提 出 了 一 种 基于 条 件 随 机 场 和 信息 灶 的 抽取 方 
法 。 通 过 使 用 条 件 随 机 场 对 文本 中 的 概念 词 进行 边界 预测 ， 与 词典 中 的 概念 对 比 ， 筛 选 出 新 概念 的 候选 项 并 找 出 其 
大 概 位 置 ， 然 后 由 互信 息 和 左右 灶 分 别 判 断 概念 窗口 内 的 概念 内 部 结合 度 和 概念 边界 自由 度 ， 从 而 发 现 新 的 专业 概 
念 。 实 验 表 明 ， 使 用 该 方法 进行 概念 发 现 比 单独 使 用 条 件 随 机 场 的 方法 有 更 好 的 效果 ， 基 于 字 和 词 的 模型 概念 发 现 
的 准确 率 分 别提 升 了 20.0695 和 46.549%5。 

关键 词 : 概念 识别 ; 新 概念 发 现 ; 条 件 随机 场 ; 信息 粒 ; 特定 领域 

中 图 分 类 号 : TP301.6 doi: 10.3969/j.issn.1001-3695.2018.08.0623 


Crf and information entropy based method for new words discovery in specific domain 


Fu Yao!, Wan Jing!'', Xing Lidong? 
(1. College of Information Science & Technology, Beijing University of Chemical Technology, Beijing 100029, China; 2. 
Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China) 


Abstract: Aiming at the problem of automatic identification of existing concepts and discovering new concepts in a specific 
field, a method based on conditional random field and information entropy is proposed. The conditional random field is used 
to predict the boundary of conceptual words in text. The candidates of the new concept can be selected with the comparison 
to the existing concepts in the dictionary and the probably location in text is found. Then the mutual information and the left 
and right entropy are used to judge the internal degree of integration and the boundary freedom of the concept in the concept 
window for discovering new professional concepts. Experiments show that the concept discovery using this method has a 
better effect than the method of using the conditional random field alone. The accuracy of the concept discovery based on 
word and words model is respectively improved by 20.06% and 46.54%. 


Key words: concept recognition; new concept discovery; conditional random field; information entropy; specific field 


0 ”引言 有 规则 ， 构 建成 本 较 高 。 基 于 统计 的 新 词 发 现 方法 是 通过 大 
六 量 的 语 料 计 算 词 频 、 词 共 现 概率 等 统计 学 特征 来 识别 领域 新 
近 几 年 ， 科 学 研究 的 快速 发 展 使 得 各 领域 的 专业 词汇 层 。” 词 。Li 等 人 中 提出 了 一 种 基于 词 内 部 结合 度 和 边界 自由 度 的 
出 不 穷 。 通 常情 况 下 ， 特 定 领域 的 专业 词汇 大 多 常 出 现在 对 方法 ， 对 分 词 产生 的 “ 散 串 ”处 理 进 行 新 词 发 现 。 天 碗 朋 等 
应 领域 的 知识 传播 媒介 中 ， 它 们 有 较 多 的 特殊 性 和 专业 性 ， 人 上 使 用 N-Gram 算法 得 到 候选 新 词 ， 再 通过 改进 互信 息 和 
只 有 专业 人 员 才 会 对 这 些 词汇 有 一 定 的 了 解 ， 而 新 的 领域 概 ”邻接 糯 对 候选 项 扩展 和 过 滤 ， 结 合 词 典 筛选 得 到 新 记 。Lei 
速度 随 着 研究 的 进步 甚至 已 经 超过 了 部 分 领域 学 者 ”等 人 中 提出 了 一 种 层次 聚 类 方法 ， 将 微 博 语 料 划分 成 具有 不 

肥 


的 认 知 速度 。 因 此 ， 如 何 高 效 、 准 确 、 全 面 地 识别 与 发 现 专 司 主题 的 组 ， 加 强 新 词 的 统计 特征 ， 从 而 提高 对 新 词 提取 的 
业 领 域 的 新 词 ， 具 有 非常 重要 的 意义 。 准确 性 。 基 于 统计 的 方法 不 受 领域 限制 ， 但 由 于 数据 稀 玻 ， 


相关 研究 工作 中 ， 专 业 领 域 新 词 发 现 的 方法 主要 分 为 。 通常 情况 下 识别 的 准确 率 不 高 。 
则 的 方法 和 基于 统计 的 方法 中。 基于 规则 的 新 词 发 现 针对 两 种 方法 各 自 的 缺点 ， 不 少 学 者 提出 了 基于 统计 和 
方法 需要 构建 规则 库 ， 即 领域 专家 根据 专业 知识 的 发 展 以 及 ”规则 的 方法 。 杜 丽 萍 等 人 外 利用 互信 息 的 改进 算法 与 少量 基 
语言 学 原理 制定 各 领域 构 词 的 共性 和 个 性 规则 ， 并 依 此 进行 。 本 规则 结合 ， 实 现 了 从 语 料 中 自动 地 识别 网 络 新 词 ， 通 过 基 
新 词 发 现 。 李 明 叫 利用 改进 后 的 Apriori 算法 对 语 料 处 理 并 生 ”于 百度 贴吧 语 料 的 实验 ， 说 明了 该 方法 在 大 规模 语 料 中 发 现 
成 关联 规则 ， 然 后 利用 生成 的 规则 对 新 的 专业 词汇 进行 抽取 ”新 词 的 有 效 性 。 雷 一 鸣 等 人 外 采 用 互信 息 统计 模型 加 入 向 右 


诊 
| 
EE 洒 
选 故 渤 资 涝 旭 泛 过 
到 


工作 。Sasano 等 人 BI 针对 日 语 中 出 现 的 新 词 ， 利 用 衍生 规则 邻 元 迭代 的 方法 进行 新 词 候选 集 的 获取 ， 并 通过 引入 外 部 统 
和 象声词 模式 ， 通 过 在 句子 的 格式 框架 中 添加 新 节点 的 方式 “计量 的 概念 对 低频 词 进行 过 滤 筛 选 得 到 新 词 。 周 霜 钉 00 采 用 
发 现 最 优 路 径 ， 以 此 实现 对 新 词 的 识别 ， 该 方法 对 某 些 特 定 。 人 工 启 发 式 规则 对 微 博 新 词 进行 分 类 和 归纳 ， 再 通过 使 用 改 
类 别 的 新 词 有 很 好 的 识别 效果 。 郑 家 恒 等 人 外 根据 汉语 构 词 。” 进 的 CINC-value 算法 融合 CRF 和 SVM 模型 , 提高 了 新 词 边 
法 建立 规则 库 ， 通 过 调用 “ 互 斥 性 字 串 ” 过 滤 规 则 和 构 词 规 。 界 识别 的 准确 率 和 低频 新 词 识 别 的 精度 。 基 于 统计 和 规则 的 
则 发 现 新 词 。 基 于 规则 的 方法 发 现 新 词 的 准确 率 较 高 ， 但 受 ”方法 结合 了 两 者 的 优点 ， 在 新 词 识别 方面 往往 可 以 取得 比较 
领域 限制 严重 ， 专 业 词 汇 的 更 新 速度 快 ， 需 要 不 断 地 更 新 既 ”好 的 效果 。 
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付 瑶 ， 等 : 基于 条 件 随机 场 与 信息 炳 的 特定 领 


目前 ,多 种 机 器 学 习 方法 也 被 应 用 到 新 词 发 现 的 任务 中 ， 


并 取得 了 较 好 的 识别 效果 , 如 CRF (条 件 随机 场 )、 HMM( 隐 


马尔 可 夫 模 型 )、SVM (支持 向 量 机 )、DT (决策 树 ) 
区 分 新 词 边 界 的 统 
SogouT 大 规模 语 料 上 进行 新 
或 文本 结构 化 的 过 程 中 ， 使 用 
向 量 , 通过 词 向 量 之 间 的 得 分 
结合 左右 炉 、 词 频 等 统计 
徐 远 方 等 人 03 将 候选 新 词 与 词 
并 与 训练 得 到 的 支持 向 量 构 


飞 等 
方法 


实验 。 丁 祥 武 等 人 在 
word2vec 将 文本 中 的 词 转换 为 
表示 词 内 部 结合 度 的 大 小 ， 再 
发 现 医疗 文本 中 的 新 
特征 向 量化 得 到 新 词 候选 向 量 ， 
通过 SVM 测试 得 到 新 
种 新 的 基 
的 特定 领域 新 词 发 现 方法 。 首 


高 低 


信息 


建 箱 


人 上 归纳 了 许多 
并 综合 这 些 特征 


在 


阵 ， 


医疗 领 


等 。 陈 


计 特 征 


， 利 用 CRF 


词 发 现 


词 。 


词 。 


本 文 提 出 


模型 结 口 9 信息 与 左 右 炳 


行 标注 ， 训 练 条 件 随 机 场 ， 然 后 
刁 选 字符 串 ， 这 时 候选 字符 串 中 部 
分 是 不 完整 的 专业 词汇 ， 


Lx 


1 
1.1 


| 


过 


凌 


用 上 
该 模 
模型 


相依 
给 定 


文本 
当 欠 


概率 


输入 


1.2 


当 给 定 观 察 


用 中 ; 


效 性 。 特 征 
言 、 文 本 表述 特征 等 方 
将 输入 状态 序列 特征 登 加 组 合 。 


了 的 概念 ， 剩 余 的 字符 串通 过 互信 息 
通过 左右 炉 对 这 些 词 进行 第 选 ， 得 到 新 的 概念 。 


相关 理论 
条 件 随机 场 


先 由 既 有 的 专业 词汇 对 语 料 进 
训练 得 到 的 模型 来 识别 出 


对 


分 是 完整 的 专业 词汇 ， 音 
其 余 为 非 专 业 词汇 ， 过 滤 掉 词 表 中 


| 这些 词 进行 拼接 ， 


条 件 随机 场 (conditional random fields，CRF) 04 是 一 种 


别 式 概率 模型 ， 是 马尔 可 夫 随 机 : 
重合 性 和 非 独 立 的 特征 进行 训练 和 


声 的 一 种 。 


E 理 ? 


它 可 以 使 / 


j 复 
既 能 充分 利 


下 文 信息 作为 特征 ， 也 可 以 添加 其 他 的 
型 训练 能 够 获取 丰富 的 特征 
中 的 标注 偏 置 等 问题 。 


外 部 特征 。 


通过 


CRF 模型 如 图 


到 Y2 


Fig. 


设 观 察 序列 X={X, 


关系 。 在 条 件 随机 场 
的 观察 序列 为 随机 变量 X 。 


1 所 示 。 顶 点 间 的 连 线 


Ys 


1 CRF 图 解 
1 Graphic of CRF 


E 信 所， 同时 


,XXX3 》 这 是 


中 的 字 或 者 词 等 。 


的 计算 方法 如 下 : 


序列 xX 的 取 值 * 时 ， 状 态 序 责 


瑟 


以 解决 最 大 炳 


ChinaXiv 合 作 


肛 概 念 发 现 


期 刊 
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随机 变量 之 间 的 相互 依赖 程度 。 互 信息 越 大 ， 说 明 该 二 元 组 
成 为 新 词 或 者 新 词 的 一 部 分 的 可 能 性 越 大 ， 即 词 内 部 结合 度 


越 大 , 通过 与 预 设 的 阀 值 比较 ， 


当 词 内 部 结合 度 大 于 阔 值 时 ， 


即 认为 两 者 可 以 构成 词语 。 两 个 随机 变量 x 和 3 的 互信 息 定 
义 为 
p(Xy) 
OB p(y G) 
其 中 : po) 是 x 和 ?的 联合 概率 分 布 函数 ， 即 两 者 在 语 料 里 
同时 出 现 的 概率 ; p(x) 和 ply) 分 别 是 x 和 3 的 边缘 概率 分 布 
函数 ， 即 各 自 单独 在 语 料 中 出 现 的 概率 。 当 MI(%,y)>>0 时， 


表明 x 和} 是 高 度 相关 的 , 即 x 和}Y 经 常 同时 出 现 ， 


rw pr 二 


字 人 圣旨 好 


构成 新 词 的 可 能 性 更 大 ; 当 MI(%y)=0 时 ,表明 x 和 3} 是 相互 


a 


独立 分 布 的 ; 
1.3 左右 灶 


左右 箭 即 词语 的 左右 邻接 (branch entropy，BE) 019， 


MI(%,y)<<0 时， 表明 x 和 和) 是 互 不 相关 的 。 


可 以 用 来 衡量 词语 左右 邻接 字符 的 不 确定 性 。 语 料 中 


意义 的 词语 往往 会 有 较 高 的 频率 出 现在 不 同文 档 中 ， 


高 的 灵活 性 ， 即 可 以 与 各 种 不 同 的 外 部 条 件 进行 搭配 


， 搭 配 


的 种 类 越 多 ， 说 明 这 个 词语 越 灵活 ， 边 界 自由 度 越 高 
引入 候选 新 词 的 左右 稍 作为 新 闻 边 界 自 1 
选 词 w 的 左右 炉 分 别 定 义 为 


H, =-2, pw |w)logs p(w | w) 


H, =-》， pw, |w)log, p(w, | w) 


1 E K 
p09-2ol look.) 


yr 分别 表示 文本 当前 输 
Zz) 是 归 一 化 基 


状态 ; 


本 。 


z=-FI ep {Sars 


在 应 用 CRF 的 过 程 中 ， 


k=] 


Nh) 


互信 息 


从 表 随机 变量 间 的 
FP, 随机 变量 Y 满足 条 件 概 率 分 布 ， 


有 的 输入 数据 可 以 是 
其 对 应 的 状态 序列 为 Y={Y,8,%…,} 。 
JY 取 值 为 》 的 条 件 


(1) 


4. 是 对 应 特征 函数 大 的 权重 参数 ， 特 征 函 数 中 的 y 、 
上 状态 和 上 一 个 输 昌 
其 计算 方法 


前 


(2) 


寺 征 的 选择 直接 影响 到 特征 函数 
的 选择 没有 固定 的 形式 ， 要 根据 目标 领域 、 
鲁 进 行 综合 考虑 。 通 常情 况 下 


来 衡量 两 个 


互信 息 (mutual information，MI) (5 通常 | 


度 的 量化 手段 。 候 


。 本 文 


(4) 


(5) 


其 中 : Y 是 候选 词 w 的 左 邻 接 字 集 合 ，w 是 5 中 的 元 素 ; 
是 w 的 右 邻 接 字 和 集合; w, 是 5, 中 的 元 素 。 如 果 候 选 词 


的 左右 


炉 都 较 大 ， 则 说 明 与 该 候选 词 左 右 相 邻 的 词 串 种 类 较 多 ， 相 


邻 词 频率 分 布 较 均 匀 , 候选 词 与 相 邻 词 构 成 新 词 的 概率 较 低 ; 


如 果 候 选 词 的 左右 炉 中 有 


较 高 的 词 串 组 成 新 词 的 概率 较 高。 


个 较 小 ， 则 表示 与 该 候选 词 相 邻 
的 不 同 词 串 的 频率 分 布 并 不 均匀 ， 此 时 ， 候 选 词 与 相信 


邻 频率 


2 ”基于 条 件 随 机 场 与 信息 灼 特定 领域 概念 发 现 
本 文 将 特定 领域 的 概念 发 现 视 为 预测 语 料 文本 序列 边界 
的 问题 。 将 概念 发 现 融合 于 语 料 分 词 的 过 程 中 ， 对 比 既 有 词 


表 发 现 新 概念 。 方 法 主要 1 
概念 识别 、 互 信息 拼接 与 左右 灶 筛 选 三 部 分 组 成 ， 如 
示 。 


1 
| 
1 
1 
1 
1 
1 | 
1 
1 
1 
1 
1 
1 
1 
1 


语 料 标 注 、CRF 模型 训练 和 候选 


图 2 所 


图 2 算法 流程 
Fig.2 Algorithm flow 
2.1 语 料 标注 
本 文 所 用 到 的 标注 集 如 表 1 所 示 。 所 采用 的 是 分 词 常用 


的 BEMSN 标注 集 ， 确 定 词 首 、 词 中 、 词 
词 。 此 外 ， 分 词 需要 标 尘 


情 参 照 《HanLP 词性 标注 集 》。 


忆 、 单 个 词 与 无 关 
的 特征 是 词性 ， 本 文 的 词性 标注 详 
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录用 定稿 付 瑶 ,， 等 : 
表 1 标注 集 
Table ] Annotation set 
标注 描述 标注 符号 

念 词 首 B 

念 词 中 M 

念 词尾 E 

单个 概念 词 S 

无 关 词 N 


2.2 CRF 模型 训练 和 候选 概念 识别 
数据 处 理 


据 的 标注 问题 。 利 用 分 词 工具 对 原始 语 料 进 行 分 词 
利用 上 下 文 信息 和 其 他 外 部 特征 ， 分 词 的 结果 按照 词 表 中 的 


概念 标注 词性 、 词 首 、 词 中 和 词尾 ， 输 入 为 带 有 词 
词 序列 ， 如 式 (6) 所 示 。 

WT =w /tw /to w/t, 

其 中 : 表示 句子 被 切 分 得 到 的 词 的 个 数 ; 
示 被 标注 的 词性 。 


1 表示 词 ; 


过 程 如 图 3 所 示 ， 概 念 识 别 可 以 看 做 序列 化 数 


》 并 充分 


性 标记 的 


利用 标注 的 语 料 对 CRF 模型 的 参数 进行 训练 ， 


CRF 模型 的 学 习 过 程 ， 得 到 领域 概念 的 识别 模型 。 


CFF 模型 
学 习 过 程 


图 3 训练 模型 图 
Fig.3 Training model graph 


通过 基于 


通过 得 到 的 概念 识别 模型 ,结合 CRF 解码 算法 , 对 新 的 


语 料 文本 进行 概念 词 边界 的 识别 工程 ， 即 对 部 分 词语 进行 拆 


分 组 合 ， 最 后 输出 一 个 最 优 的 “ 词 形 /词性 ”序列 WC*/7C*， 
用 式 子 可 表示 为 
WC*/TC* = woa /tc wes /tes wo; /tc;**: woe, /1c, 


fc: =[t) tx] ， 


i<n we; =[w;*… wx] ， 


过 程 如 图 4 所 示 。 


图 4 概念 识别 流程 
Fig.4 Extraction of concept graph 
2.3 互信 息 拼 接 与 左右 粒 选 
经 过 条 件 随机 场 模型 的 识别 得 到 候选 概念 词 ， 


将 对 这 些 不 正确 的 概念 进行 编辑 。 其 基本 思想 是 : 


确 的 新 概念 词 多 是 由 于 字符 串 缺 失 不 完整 ， 本 文 提 


(7) 


1<k,j+k<n 。 该 


其 中 不 正 
出 的 算法 


ChinaXiv 合 作 期 刊 


基于 条 件 随 机 场 与 信息 蚁 的 特定 领域 概念 发 现 


第 37 卷 第 3 期 


2. 证 K;=1 V pos(9) 为 词性 分 布 拼接 方法 

3. return 5 = Pos(S/); 

4. else 证 K;>1 Ww,w, 分 别 为 1 左右 邻接 词 ，mi(w) 
为 求 互信 息 方法 

S. foreach j={l,2,3...n} do 

6. 证 miW) > mi(w) 

7. Si < Ww SH; 

8. else 

9. 5 一 5 站 w,; 1/ set(s) 为 存储 5; 方法 

10. set( 97 ); 

11. end for //argh(s) 为 求 sei(S7) 中 元 素 左右 炉 最 大 
值 时 8 的 值 

12. return 5;/=argh(set(S/)); 

13. end for 
3 ”实验 设置 及 结果 分 析 
3.1 实验 数据 集 


本 文 以 建筑 工程 领域 的 图 书 期 刊 为 语 料 集 ， 
的 方法 在 该 语 料 集 上 进行 了 新 词 发 现实 验 。 
个 建 工 领域 概念 词汇 ， 并 利 ) 
程 领域 图 书 。 


对 文中 提出 


提取 了 70 962 
这 些 概念 标注 了 245 本 建筑 工 


5 为 原始 数据 的 样 例 。 图 书 中 的 所 有 文本 作为 本 文 实 
验 语 料 。 


文件 (D。 旺 句 (E) 格式 (D) 查看 (V) 都 助 (H) 


章 报 读 和 -5 区 < 建 下 


i 


997 如 


Fig.5 Book text of construction project 


为 了 从 字符 和 词汇 两 个 不 同 的 分 词 粒 度 研究 信息 


取 > 


本 文 将 实验 语 料 分 为 两 组 : 一 组 利用 


统计 不 正 


确 的 概念 词 的 左右 候选 词 ， 计 算 相应 的 互信 息 ， 选 取 互 信息 


值 较 大 者 拼接 得 到 新 词汇 ， 再 计算 该 新 词汇 的 左右 
如 此 循环 递归 ， 可 


取 左 右 业 中 的 较 小 值 作 为 新 词 的 信息 箭 。 


信息 炳 ， 


得 约束 条 件 下 ， 信 息 焙 取 最 大 值 的 新 词 即 为 发 现 的 新 概念 。 
例如 ， 通 过 条 件 随 机 场 识 别 出 候 选 概念 词 一 一 “施工 过 程 仿 
真 ” 这 是 一 个 不 完整 的 词 , 通过 互信 息 拼 接 右 词 后 得 到 新 词 


“施工 过 程 仿真 分 析 ” 计算 “施工 过 程 仿真 分 析 ” 的 左 


右 信息 烂 ， 取 左右 灶 中 的 最 小 值 为 其 信息 烂 ， 与 拼接 过 程 中 


概念 。 有 具体 算法 如 下 : 
输入 : 候选 概念 词 集合 $={5,,5,53,.…,5,} o 


输出 : 信息 粹 最 大 时 的 概念 词 5/ =argmax(H)) 。 


1. foreach i={1.2,3...n} do /Ki 为 5; 的 词 频 


出 现 的 其 他 候选 词 的 信息 灶 进 行 比较 ， 发 现 “施工 过 程 仿真 
分 析 ” 的 信息 粒 最 大 ， 即 “施工 过 程 仿真 分 析 ” 为 发 现 的 新 


取 的 结 


进行 分 词 ， 并 依照 《HanLP 词性 标注 


HanLP! 分 词 工具 对 初步 


E 集 》 附 加 词 


性 信息 ， 另 一 组 则 直接 以 字符 作为 实验 数据 。 


本 文采 用 如 图 6 中 的 格式 整理 实验 数据 ， 其 中 每 一 种 标 
注 的 第 一 列 是 待 识别 词 ， 第 二 列 是 词性 特征 ， 第 三 列 是 正确 


标注 。 
3.2 实验 方案 


本 文 使 用 特征 模板 


Column] 来 指定 输入 数据 中 的 每 一 个 单元 。Row 
元 的 行 偏 移 ，Column 代表 列 位 置 。 


助 生成 特征 函数 ， 模 板 文件 如 图 7 
所 示 ， 其 中 的 每 一 行 是 一 个 模板 。 每 个 模板 都 


x[Row, 
代表 当前 单 


实验 采用 


CRF++0.58? 作 为 CRF 的 实现 工具 。 为 了 方便 


表述 , 将 前 面 提 到 的 特征 集 分 别 用 字母 做 标志 ， 


1 HanLP 是 
2 CRF++ 是 著名 的 条 件 随机 场 


如 表 2 所 示 。 


源 的 汉语 言 处 理 包 http://hanlp.linrunsoft.com/index.html 
源 工具 http:Wcrfpp.sourceforge.net 


书 TN 
交 dN 
面 ad N 


较 dN 

系统 nS 
地 ude2 NN 
叙述 vN 


# Unigram 
UO00:%x[-2,0] 
UO1:%x[-1,0] 


U0O2:%x[0,0] 
U03:%x[1,0] 


U04:%x[2,0] 
UOS:%x[-1,0]/%x[0,0] 
U06:%x[0,0]/%x[1,0] 


U10:%x[-2,1] 


U11:%x[-1,1] 
U12:%x[0,1] 


建筑 nE 
的 nN 
设计 vn N 
ceN 
工 vnN 
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U13:%x[1,1] 
U14:%x[2,1] 
U15:%x[-2,1]/%x[-1,1] 
U16:%x[-1,1]/%x[0,1] 
U17:%x[0,1]/%x[1,1] 
U18:%x[1,1]/%x[2,1] 


U20:%x[-2,1]/%x[-1,1]/%x[0,1] 


U21:%x[-1,1]/%x[0,1]/%x[1,1] 
U22:%x[0,1]/%x[1,1]/%x[2,1] 


经 验 nN 
总 结 VN 


wN 


U23:%x[0,1] 


# Bigram 
B 


其 于 词 的 建 


Fig. 6 Word based construction 


chinaXiv 


project’s concept labeling 


表 2 特征 表示 方法 


概念 标注 图 7 特征 模板 示意 图 


Fig.7 Characteristic template 


Table 2 Feature representation method 


基于 条 件 随 机 场 与 信息 蚁 的 特定 领域 概念 发 现 


[ 作 的 效果 ; 
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实验 4: 融合 实验 。 利 用 实验 二 中 的 识别 模型 标注 新 文 
本 识别 新 概念 ， 利 用 互信 息 与 左右 炉 进行 拼接 与 第 选 ， 通 过 
与 其 他 实验 组 做 对 比 ， 判 断 词性 特征 与 识别 后 加 入 互信 息 、 
左右 烂 对 文本 识别 的 影响 。 
3.3 实验 结果 与 分 析 

实验 结果 如 图 8 所 示 。 图 中 WP 表示 新 词 发 现 的 识别 准 
确 率 ，WR 表示 新 词 发 现 识别 召回 率 ，WF 分 别 表示 新 词 发 现 
的 人 值 ，NP 表示 建筑 工程 领域 概念 的 识别 准确 率 ，NR 表示 
建筑 工程 领域 概念 的 识别 召回 率 ，NF 表示 建筑 工程 领域 概 
念 识别 的 五 值 。 

基于 字 或 词 的 CRF 对 比 实验 结果 如 图 8 所 示 。 即 实验 1 
表明 ， 以 字 作 为 识别 的 基本 单元 时 ， 准 确 率 和 召回 率 都 比 以 
词 作为 基本 单元 时 高 。 采 用 CRF 模型 ， 并 以 字 作 为 基本 单位 
时 ， 其 召回 率 在 新 词 发 现 或 概念 识别 上 分 别 比 以 词 作为 基本 
单位 的 最 好 识别 水 平 高 3.56% 或 5.7% 。 


10000% 
NP NR NF 


CRF+CHAR @ CRF+WORD 


图 8 字 与 词 对 比 实验 
Fig.8 Character and Word contrast experiment 
词性 特征 有 效 性 判定 实验 结果 如 图 9 所 示 。 实 验 2 表明 ， 
以 词 作为 基本 单元 ， 加 上 词性 特征 比 未 加 入 词性 特征 ， 在 信 


Co 


WP WR WF 


息 抽取 的 召回 率 上 有 提高 。 


90.00% 


0.0036 


NF 


WP WR WW NN MR 
M CRF+WORD @ CRF+WORD+POS 
图 9 加 入 词性 特征 的 影响 
Fig.9 Effect of joining part of speech feature 

实验 3 的 结果 如 图 10 所 示 。 数据 表明 , 在 识别 后 加 入 互 
言 且 和 左右 烂 ， 概 念 发 现 的 效果 有 明显 提升 。 基 于 字 的 模型 
在 识别 后 加 入 互信 息 和 左右 粮 ， 其 准确 率 提升 了 20.06%,， 基 
于 词 的 模型 在 识别 后 加 入 互信 息 与 左右 粹 ， 其 准确 率 提升 J 
46.54%。 经 对 比 发 现 ， 前 者 在 识别 效果 的 提升 上 低 于 后 者 ， 
分 析 认 为 是 基于 字 的 模型 拼接 字 不 如 基于 词 的 模型 直接 拼接 
词 得 到 的 结果 更 完整 ， 从 而 影响 了 效果 。 

融合 实验 ,即使 用 本 文 提出 的 概念 识别 方法 进行 的 实验 ， 
通过 加 入 了 词性 特征 的 条 件 随机 场 模型 ， 提 升 了 识别 的 准确 


率 和 效率 ， 减 少 了 运行 所 需要 的 时 间 ， 找 到 了 新 概念 的 大 概 


词性 特 和 POS 

互信 息 拼接 MI 

左右 焙 第 选 EN 

以 词 为 基本 单位 WORD 

以 字 为 基本 单位 CHAR 
本 文 共 做 了 四 组 交叉 实验 对 上 文 所 提 算 法 的 有 效 性 进行 
基于 字 或 词 的 CRF 对 比 实验 。 研究 CRF 模型 
结合 不 同 粒 度 的 标注 方式 〈 词 或 者 字 ) 对 原始 文本 做 信息 抽 


词性 特征 有 效 性 判定 实验 。 在 以 词 为 基本 单元 


实验 3: 


日 中 ， 通 过 加 入 词性 特征 判断 其 对 抽取 效果 的 影响 ; 
加 入 互信 息 与 左右 录 交 叉 对 比 实验 。 在 以 字 或 


词 为 基本 单元 的 实验 组 中 ， 采 用 加 入 互信 息 和 左右 灶 的 方法 


进行 实验 ， 以 对 比 
的 影响 ; 


其 与 未 加 入 互信 息 和 左右 灶 对 概念 识别 


位 置 ， 加 入 词性 分 布 并 利用 互信 息 和 左右 炉 进行 拼接 筛选 ， 
取得 了 很 好 的 效果 。 实 验 结果 如 图 11 所 示 。 
小 结 : 利用 互信 息 与 左右 炉 进行 条 件 随机 场 识别 后 处 理 
可 以 有 效 提高 概念 发 现 工作 的 准确 率 及 召回 率 。 条 件 随 机 场 
识别 的 作用 在 于 发 现 概念 所 在 的 大 概 位 置 ， 基 于 这 个 位 置 利 


用 信息 论 的 方法 可 以 提取 出 完整 准确 的 建 工 领域 概念 ,此 外 ， 
基于 字 的 识别 方法 与 基于 词 的 识别 方法 对 比 ， 通 过 条 件 随 机 


场 模型 发 现 的 概念 位 置 基 本 一 样 ， 经 过 信息 论 方法 处 理 后 其 


201901.00053v1 


chinaXiv 


录用 定稿 付 瑶 ， 等 : 基于 条 件 随机 场 与 信息 粒 的 特定 领域 概念 发 现 


加 


识别 的 准确 率 和 召回 率 前 者 低 于 后 者 ， 另 外 ， 加 入 词性 特征 
的 基于 词 的 模型 在 识别 后 加 入 互信 息 与 左右 烂 ， 处 理 得 到 的 


十 困 总 局 
结果 效果 最 好 。 
100.00% 
90.00% 
80.00% 
70.00% 
60.00% 
50.00% 
40.00% 
10.00% | | | | | 
0.00% 
WP WR WF NP NR NM 
CRF+CHAR CRF+CHAR+MI+EN 
CRF+WORD CRF+WORD+POS+MI+EN 


图 10 加 入 互信 息 与 信息 业 影 响 


Fig. 10 Effect of joining mutual information and information entropy 


WP WR WF NP NR NF 


CRF+CHAR 
CRF+WORD 
四 CRF+WORD+POS+NMEEN 


图 11 多 特征 融合 实验 


Multi feature fusion experiment 


100.00% 
90.00% 
80.003% 
1000s 


是 CRF+CHAR+MIHEN 
CRF+WORD+POS 


Fig. 11 
4 ”结束 语 


本 文 提出 了 基于 条 件 随机 场 与 左右 炉 的 特定 领域 概念 识 
别 方法 ， 即 对 语 料 进 行 标注 ， 由 处 理 过 的 数据 训练 条 件 随机 
场 模 型 ， 并 用 其 识别 候选 词 ， 通 过 词 表 过 滤 掉 已 有 概念 ， 对 
其 余 候 选 词 使 用 互信 息 和 左右 粒 进 行 拼接 筛选 ， 得 到 新 的 概 
念 。 实 验 使 用 建 工 领域 的 语 料 集 ， 并 分 别 从 分 词 粒度 、 特 征 
选择 、 加 入 互信 息 和 左右 炉 处 理 等 维度 验证 了 文本 提出 的 方 
法 在 建筑 工程 领域 的 概念 发 现 与 识别 中 的 有 效 性 。 实 验 结果 
表明 ， 该 方法 在 不 增加 人 工 标注 的 条 件 下 提高 了 信息 抽取 的 
准确 率 和 召回 率 ， 同 时 可 以 提高 识别 的 效率 。 另 需 注 意 ， 标 
注 集 的 质量 、 机 器 的 性 能 等 会 很 大 程度 上 影响 识别 模型 的 训 
练 ， 从 而 影响 概念 识别 的 效果 。 
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